真机强化学习如何保证安全性?清华团队提出安全探索均衡机制
真机强化学习如何保证安全性?清华团队提出安全探索均衡机制近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。
来自主题: AI技术研报
6386 点击 2026-06-24 16:03
搜索
近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。